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摘 要 : [目的 /意义 ] 识别 社会 化 问答 社区 中 回答 可 能 性 高 的 专业 答题 者 ,可 缩短 提问 用 户 得 到 满意 答案 的 等 待 时 间 , 促 
进 用 户 间 的 知识 共享 ,助力 社会 化 问答 社区 的 持续 健康 发 展 。[ 方法 过程] 基于 社会 资本 理论 及 动机 理论 ,对 用 
户 答题 动因 进行 分 析 , 结 合 专家 发 现 研 究 提 出 测量 指标 ,构建 研究 模型 ,以 知 乎 社区 为 研究 实例 ,借助 Python 语言 
对 实验 数据 进行 特征 值 提取 、 打 标签 等 数据 处 理 , 研 究 运 用 逻辑 回归 模型 .随机 森林 、XGBoost3 种 常用 的 机 器 学 习 
分 类 模型 进行 训练 及 预测 。 [ 结果 /结论 ] PageRank HITS 算法 对 比 验 证 本 文 方法 的 有 效 性 及 优越 性 ,本 研究 为 
同类 平台 如 健康 社区 的 问题 推送 、 专 家 识别 以 及 推荐 模型 的 课题 研究 提供 一 定 的 参考 。 
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中 互联 网 技术 的 发 展 ,改变 着 人 们 搜寻 和 交流 信息 
的 洒 式 ,也 带 来 了 网 络 问 答 社区 的 兴起 与 繁荣 。 这 些 
网 绵 问 答 社区 跨越 时 空 限制 ,整合 了 不 同 背景 .不 同行 
她 下 具有 相同 或 相似 兴趣 、 目 标 和 实践 经 历 的 用 户 群 
体 3 浆 破 了 仅仅 通过 搜索 引擎 搜索 互联 网 上 已 有 单一 
癌 苞 的 信息 获取 约束 ,将 用 户 大 脑 中 的 信息 经验. 知 
识 锋 移 到 网 络 问答 社区 。 用 户 可 以 随时 提出 问题 或 
答 任 何 领域 和 不 同类 型 的 问题 ,或 通过 评论 .私信 的 方 
式 加 社区 其 他 用 户 进行 某 种 程度 的 即时 交流 ,共享 经 
验 和 知识 ,解决 实际 问题 。 

但 在 志愿 式 参与 的 网 络 问答 社区 中 ,仍然 存在 用 
户 提出 的 问题 长 时 间 得 不 到 回应 ,或 问题 得 不 到 专业 
性 ,完整 性 满意 度 较 高 答案 的 现象 。 久 而 久之 ,提问 
者 会 产生 肖 丧 情绪 ,并 可 能 影响 社区 的 整体 健康 "1!。 
因此 ,识别 社会 化 问答 社区 中 针对 特定 问题 有 较 高 回 
答 几 率 的 专业 答题 者 ,能 够 使 提问 者 得 到 高 质量 的 下 
答 ,缩短 用 户 得 到 满意 答案 的 等 待 时 间 ,促进 社区 的 持 
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复 或 得 不 到 满意 回复 的 现状 仍 难以 改善 。 因 此 ,本 文 
借助 动机 理论 和 社会 资本 理论 ,结合 专家 发 现 的 相关 
研究 ,力求 找到 专业 且 具 备 较 大 答题 可 能 性 的 回答 者 ， 
以 解决 以 上 问题 。 本 文采 用 多 种 方法 验证 研究 模型 ， 
以 找 出 本 模型 的 最 优 算法 ,不 同 于 以 往 单一 算法 支撑 
下 的 研究 ,实验 结果 验证 本 研究 的 有 效 性 及 优越 性 。 

本 研究 以 热门 社会 化 问答 社区 知 乎 为 例 ( 截 至 
2019 4E 1 月, 据 ALEXA 排名 显示 ,“ 知 乎 ”" 居 我 国 社交 
网 站 排名 第 3 位 , 居 全 球 网 站 排名 第 90 位 ,日 均 IP Jj 
问 量 约 500 万 ) ,从 知 乎 的 医学 话题 领域 抓 取 研 究 数 
据 ,因为 医学 话题 是 一 个 专家 用 户 及 普通 用 户 均 可 广 
泛 参 与 的 话题 , 故 研究 样本 具有 代表 性 。 


2 相关 研究 综述 


本 研究 的 目的 是 寻找 社会 化 问答 社区 答题 可 能 | 
大 的 专业 答题 者 ,因此 本 节 回 顾 专 家 发 现 及 用 户 知识 
共享 的 相关 研究 。 
2.1 专家 发 现 

社会 化 问答 社区 专家 发 现 就 是 从 众多 的 回答 者 中 


续 健 康 发 展 。 此 前 也 有 学 者 探讨 了 如 何 识别 问答 社区 
某 话 题 领 域内 的 专家 用 户 ,实际 上 , 若 专家 用 户 受 各 种 
条 件 限 制 ,无 法 及 时 回答 问题 时 ,社区 中 问题 得 不 到 
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寻找 出 掌握 专业 知识 且 权威 可 信 的 用 户 ” ,此 前 已 有 
众多 学 者 采用 不 同 的 研究 方法 ,从 不 同 的 角度 对 问答 
社区 的 专家 发 现 进行 了 研究 探讨 : 


* 本 文系 国家 自然 科学 基金 项 目 " 基 于 图 模型 的 多 源 异 构 在 线 产品 评论 数据 融合 与 知识 发 现 研 究 ”( 项 目 编号 :71974075 ) 研究 成 果 之 一 。 
作者 简介 : NEZTE (ORCID :0000 -0002 -0319 -626X) ,硕士 研究 生 ,E-mail:pmy156@126. com ; 沈 旺 (ORCID :0000 - 0002 -8933 - 5653 ) , 副 教 
授 ; 代 旺 (ORCID :0000 -0001 -7168 —7776) ,硕士 研究 生 ; 刘 嘉 宇 (ORCID :0000 -0002 -2317 -8157 ) ,硕士 研究 生 。 
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CL) 从 间 管 社区 的 内 容 主题 角度 开展 研究 :J 
Weng 等 "依据 用 户 的 推 特 分 布 . 推 特 内 容 的 同 质 性 ， 
采用 TwitterRank 算法 进行 了 主题 敏感 度 的 推 特 专 家 
排名 ;A. Pal 等 "通过 话题 内 容 的 隧 类 ,借助 高 斯 混合 
模型 ,根据 用 户 特性 识别 特定 话题 的 权威 专家 ;Z. Yan 
等 中 利用 张 量 模型 和 主题 模型 ,研究 了 问题 和 回答 者 
之 间 的 潜在 语义 关系 ,通过 AUC 的 最 大 化 实现 对 潜在 
回答 者 的 排名 。 

(2) 从 问答 社区 用 户 反馈 行为 来 识别 专家 用 户 ; 
X. Cheng 等 中 依据 用 户 反馈 作为 相关 标签 词 并 建立 主 
题 模型 ,结合 用 户 专业 知识 特征 排序 ,最 终 实现 专家 发 
现 ;J. Shen 等 "基于 用 户 点 赞 、 评 论 . 选 择 最 佳 答案 等 
用 户 反馈 行为 ,通过 加 权 的 HITS 算法 推荐 专家 ;S. Pa- 
tih 等 "分 析 了 专家 与 非 专家 的 行为 ,基于 用 户 活动 特 
征 = 稚 案 质 量 特征 ,语言 特征 和 时 间 特 征 4 个 指标 ,使 
Hr ERU HUS XC 
(3) 以 问答 社区 用 户 间 的 相似 性 或 用 户 的 社交 网 
美 系 为 出 发 点 ,进行 专家 发 现 ,如 歼 凯 乐 等 ”基于 


“问题 -用 户 ”的 传播 网 络 ,拓展 用 户 建 模 ,并 利用 多 


SIREIR EZK; S. Yarosh 等 ”基于 专家 的 社会 
次 末 自身 专业 知识 等 信息 ,构建 “任务 - 主题 "交叉 
I, fB SmallBlue Find 系统 从 推荐 用 户 列表 中 选择 
CARS. Ghosh 等 "挖掘 并 分 析 了 Twitter 用 户 列表 的 
JCBBIRL GL ,利用 Cognos 系统 查找 主题 专家 。 
(4) 对 用 户 的 权威 度 、 声 望 ,参与 度 等 进行 建 模 或 
排 崖 ,从 而 达到 识别 专家 的 目的 。 如 D. R. Liu 4^" gig 
过 主题 偏好 声望 和 权威 度 的 线性 组 合 对 用 户 建 模 : 主 
题 偏好 由 专家 概况 与 目标 问题 的 文本 相似 度 算出 , 声 
望 依据 用 户 的 历史 答题 数 与 最 佳 答案 数 ,权威 度 由 链 
接 分 析 算法 求 得 ;L. Hong 5877 依据 问题 主题 对 用 户 声 
誉 进行 建 模 ,将 概率 潜在 语义 分 析 嵌 入 用 户 的 声誉 建 
模 中 ,利用 PageRank 算法 ,进行 专家 发 现 ; 林 鸿 飞 等 
提出 一 种 基于 用 户 类 别 参与 度 的 专家 发 现 方法 ,利用 
PageRank 和 HITS 计算 了 用 户 在 每 一 个 类 别 的 专家 得 
分 及 参与 类 别 的 参与 度 得 分 ,帮助 识别 社区 回答 中 的 
专家 用 户 。 

综 上 ,学 者 们 利用 不 同 的 测量 指标 及 技术 方法 开 
展 了 专家 发 现 的 研究 ,但 大 多 利用 文本 内 容 的 相似 性 
或 辅助 某 一 局 部 特征 进行 研究 ,在 数据 的 模拟 训练 时 
大 多 采用 单一 的 技术 方法 来 论证 模型 的 有 效 性 , 且 研 
究 的 目的 在 于 找到 专家 用 户 ,多 侧重 技术 方法 ,对 理论 
部 分 的 涉及 也 较 少 。 本 研究 的 目的 不 仅 在 于 找到 专 
家 ,而 且 要 寻找 回答 问题 可 能 性 大 的 专家 ,基于 社会 次 


本 理论 和 动机 理论 ,从 多 个 特征 开展 研究 ,从 多 个 机 器 
学 习 模 型 中 寻找 适合 本 模型 的 技术 方法 ,一 定 程度 上 
丰富 了 此 前 关于 专家 发 现 的 研究 。 
2.2 知识 共享 

知识 共享 是 指 拥有 知识 的 人 将 知识 以 某 种 形式 表 
达 并 通过 媒介 分 享 的 行为 “”。 社 会 化 问答 社区 用 户 
回答 问题 这 一 行为 属于 知识 共享 。 学 术 界 对 用 户 知识 
共享 行为 的 研究 主要 是 理论 研究 ,迄今 为 止 ,研究 成 果 
已 十 分 丰富 。 本 文选 择 比较 成 熟 的 动机 理论 和 社会 资 
本 理论 作为 研究 的 理论 基础 ,对 其 相关 研究 进行 梳理 。 

动机 理论 认为 人 们 的 行为 由 动机 导向 ,动机 是 知 
识 共享 的 必要 前 提 '" ,学 者 们 认为 ,虚拟 社区 中 用 户 
的 动机 可 分 为 两 大 类 , 即 内 部 动机 (如 个 人 兴趣 ,个 
人 乐于 助人 、 利 他 主义 与 渴望 被 认同 等 因素 ) 和 
外 部 动机 (如 声誉 ”” .利益 "”、 外 部 奖励 ””” AR 
得 有 用 信息 及 专业 知识 ” ) ,它们 能 让 虚拟 社区 的 用 
户 有 形 或 无 形 地 获得 一 定 的 实质 利益 或 是 实现 自我 满 
足 , 显 著 地 影响 着 用 户 知 识 共享 的 行为 。 因 而 ,本 研究 
结合 研究 对 象 的 实际 状况 ,从 需求 满足 .利他 主义 的 内 
部 动机 以 及 时 间 与 利益 的 外 部 动机 分 析 用 户 答题 的 可 
能 性 。 

社会 资本 理论 认为 ,社会 资本 、 个 人 或 社会 网 络 所 
拥有 的 关系 网 络 以 及 能 人 其 中 的 资源 集 ,强烈 影响 知 
识 共享 发 生 的 程度 ,社会 资本 理论 主要 包括 3 个 维度 : 
结构 维度 .关系 维度 . 认 知 维度 ” 。 赵 玲 等 C. M. 
Chiu 4&"*! T, Zhao 等 ”1、H. H. Chang 4&U? H. F. 
Lin 的 认为 社区 互动 关系 ,如 信任 互惠 等 影响 用 户 在 
虚拟 社区 的 归属 感 (成 员 感 ) ,进而 影响 用 户 知识 共享 
的 活跃 度 。B. Van den Hooff 等 认为 社区 的 信任 、 认 
同感 以 及 用 户 个 人 的 知识 共享 能 力 和 意愿 是 影响 知识 
共享 的 重要 因素 。 本 研究 围绕 社会 资本 理论 的 3 个 维 
度 ,主要 从 互惠 .成 员 之 间 的 共同 语言 以 及 用 户 的 社交 
关系 网 络 进行 用 户 答题 潜在 可 能 性 的 分 析 。 


3 ”社会 化 问答 社区 答题 者 发 现 特 征 指标 
抽取 


3.1 社会 化 问答 社区 用 户 答题 动因 分 析 
3.1.1 动机 理论 视角 

动机 理论 视角 下 用 户 在 社会 化 问答 社区 答题 行为 
动因 的 分 析 如 下 ( 见 图 1) : 

一 是 内 部 动机 下 用 户 的 行为 动因 分 析 , 即 用 户 出 
于 满足 自身 某 些 需求 或 出 于 利他 主义 动机 进行 答题 。 
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需求 满足 主要 是 指 用 户 出 于 自我 满足 感 ,回答 与 
其 3% 趣 相关 的 问题 ;或 是 出 于 完善 自身 知识 结构 ,提升 
THER zh IL, Tf EE A EB live 进行 付费 学 习 。( 知 乎 
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举办 知 乎 live 场次 


参与 公共 编辑 次 数 
金钱 举办 价格 较 高 知 乎 live 


机 构 账 号 


1 动机 理论 视角 下 用 户 答题 动因 分 析 


员 间 的 互惠 关系 上 。 互 惠 的 表现 方式 有 无 形 资源 互惠 
和 有 形 资源 互惠 两 种 。 无 形 资源 互惠 ,如 用 户 C 在 内 
容 创作 完成 后 ,创作 内 容 被 用 户 D 浏览 ,用 户 D 在 浏 


lige 症 知 乎 社区 的 实时 间 答 ,用 户 可 实时 参与 或 观看 
疼 网 回放 ,在 参与 后 用 点 亮 星星 的 个 数 给 出 自己 对 本 
Ej ive 的 质量 .主题 等 方面 的 感受 评价 。 用 户 也 可 以 成 
Jie 的 主讲 人 ,通过 语音 .图片 .视频 或 文字 的 形式 实 


CEU ,用 户 则 会 广泛 答题 ,或 是 举行 超 低 价 ,免费 的 
知 乎 live 与 社区 其 他 用 户 交 流 信 息 ,分 享 经 验 。 

二 是 外 部 动机 下 用 户 的 行为 动因 分 析 。 主 要 是 指 
用 户 具 有 在 社区 进行 内 容 创作 的 时 间 ,或 是 出 于 金钱 
等 物质 利益 .提升 声誉 的 动机 做 出 某 些 行为 。 如 外 部 
动机 下 的 时 间 因 素 是 用 户 在 社区 活跃 度 水 平 高 低 的 先 
决 条 件 ,金钱 等 物质 利益 及 声誉 也 会 诱 使 用 户 产 生 高 
质量 的 创作 内 容 。 金 钱 动机 则 表现 在 用 户 出 于 知识 变 
现 的 目的 举办 付费 live ,场次 较 多 且 价 格 不 是 很 低 。 声 
誉 动机 则 表现 在 机 构 认 证 用 户 及 个 人 认证 用 户 的 创作 
行为 习惯 上 (创作 内 容 多 提 及 与 认证 相关 的 信息 ) 。 
3.1.2. 社会 资本 理论 视角 

社会 资本 理论 视角 下 对 用 户 在 社会 化 问答 社区 答 
题 行为 动因 的 分 析 从 关系 维 、 认 知 维 、 结 构 维 3 方面 展 
开 , 具 体 如 下 ( 见 图 2): 

一 是 关系 型 社会 资本 ,表现 在 社会 化 问答 社区 成 


览 后 为 表达 对 内 容 的 肯定 进行 了 点 赞 或 送出 感谢 等 行 
为 。 有 形 资源 互惠 ,如 用 户 D 举办 非 低 价 的 付费 知 乎 
live ,在 知识 分 享 中 实现 知识 变现 ,用 户 下 通过 付费 获 
得 用 户 D 分 享 的 知识 ,提升 自己 。 

二 是 认 知 型 社会 资本 ,是 指 社区 主体 间 的 共同 愿 
景 和 共同 语言 ,表现 为 知 乎 用 户 因为 某 种 兴趣 、 爱 好 、 
共同 语言 而 聚集 到 同一 类 话题 下 交流 信息 ,为 丰富 相 
关 领 域 的 专业 知识 而 努力 获取 知识 分享 知识 。 

三 是 结构 型 社会 资本 ,是 指 社区 用 户 在 社交 网 络 
结构 中 所 处 的 位 置 , 主 要 与 用 户 的 粉丝 数量 粉丝 在 社 
交 网 络 中 节点 位 置 的 重要 性 相关 。 

3.2 专家 发 现 特征 指标 

根据 以 往 学 者 对 专家 发 现 的 研究 ,主要 采用 以 下 
指标 衡量 社会 化 问答 社区 用 户 的 专家 身份 : 

一 是 用 户 可 信和 度 。 社 会 化 问答 社区 中 用 户 既 是 受 
众 ,也 是 内 容 的 发 布 者 。 平 台 内 容 信息 的 可 信 度 与 发 
布 者 密切 相关 , 它 代 表 着 用 户主 观 上 对 信息 的 信任 程 
BE, 不 仅仅 是 狭义 上 的 “ 真 " 或 “ 假 "”。 本 文 从 用 户 
的 背景 资料 信息 及 用 户 在 社区 的 交互 行为 两 方面 对 用 
户 的 可 信 度 进行 评测 。 

二 是 用 户 专业 性 。 问 答 社区 中 专家 是 回答 过 类 似 
问题 的 用 户 。 本 文 从 用 户 产生 的 历史 答案 的 主题 分 
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认 知 型 社会 资本 


共同 语言 
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图 2 社会 资本 理论 视角 下 用 户 答题 动因 分 析 


布 和 内 容 质量 两 方面 测量 用 户 的 专业 性 ,包括 内 容 是 
d VES 清晰 ,专业 , 即 用 户 在 回答 时 是 否 含有 与 问题 
相关 的 主题 词 ,是 否 引 用 图 表 、 链 接 进行 内 容 的 补充 或 
ics ,回答 是 否 仔细 ( 管 案 长 度 ) 。 

日 ) 三 是 用 户 权威 性 。 正 所 谓 人 以 群 分 ,用 户 在 社会 
食 同 答 社区 也 并 非 相 互 孤立 的 个 体 ,他 们 总 是 倾向 于 
跟 居 态度 兴趣、 价值 观 .背景 和 人 格 上 和 自己 相似 的 
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人 进行 在 线 社交 ,形成 一 个 个 “圈子 ” ,这 些 “ 圈 子 ” 
是 根据 用 户 的 兴趣 倾向 和 所 属 知识 领域 而 划分 的 社区 
结构 ”"。 用 户 在 知 乎 社区 进行 问答 及 相关 互动 , 久 而 
久之 呈现 出 “ 互 粉 “ 被 粉 “ 粉 丝 ”3 种 关注 关系 ( 见 图 
3) ,用 户 成 为 “粉丝 "或 “被 粉 者 ” ,由 此 形成 庞大 而 清 
晰 的 用 户 社 交 关系 网 络 。 用 户 的 权威 值 由 用 户 之 间 形 
成 的 关系 网 络 得 出 ,可 由 HITS 或 PageRank 计算 。 


图 3 知 乎 社区 用 户 互动 及 用 户 关系 


3.3 ”社会 化 问答 社区 答题 者 特征 指标 及 指标 测度 

本 节 基 于 前 文 对 用 户 管 题 动因 分 析 及 以 往 专 家 发 
现 研 究 特 征 指标 的 提取 ,结合 研究 实例 的 状况 提出 本 
研究 的 特征 指标 ( 见 图 4) 及 研究 指标 的 测量 方法 。 
3.3.1 用 户 可 信和 度 

对 知 乎 社区 用 户 可 信和 度 的 测量 在 一 定 程度 上 能 够 
保证 其 产生 答案 的 可 信 度 。 

用 户 背 景 资 料 是 用 户 在 注册 、 使 用 知 乎 时 自己 填 
写 的 简介 资料 ,包括 昵称 头像 ,性别 .居住 地 .所 在 行 


业 、 职 业经 历 .教育 经 历 和 一 句 话 个 人 简介 等 内 容 。 社 
会 化 问答 社区 中 用 户 在 注册 时 可 选择 实名 注册 ,也 可 
选择 不 实名 注册 。 背 景 资 料 的 完整 程度 能 够 在 某 种 程 
度 上 反映 出 用 户 是 否 可 信 。 本 研究 中 用 户 资料 完整 度 
的 统计 采用 一 般 的 数学 方法 , 即 对 用 户 的 背景 资料 中 
包括 用 户 性 别 、 居 住地 、 所 在 行业 、 职 业经 历 、 教 育 经 
历 ` 个 人 简介 字段 不 为 空 项 的 统计 。 此 外 ,实名 认证 的 
个 人 用 户 或 机 构 用 户 相 比 未 认证 用 户 、 匿 名 用 户 而 言 ， 
具有 更 高 的 可 信和 度 。 
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4 社会 化 问答 社区 答题 者 特征 指标 


用 户 在 知 乎 社区 与 其 他 用 户 进行 交互 行为 数据 ， 
能 有 效 验 证 该 用 户 是 否 为 机 器 用 户 ,是 该 用 户 可 信和 度 
的 又 一 体现 。 除 了 问答 和 关注 关系 ,用 户 在 知 乎 社区 
的 交互 行为 主要 通过 用 户 产生 的 所 有 内 容 的 获 赞 
数 、 用 户 收 到 其 他 用 户 的 感谢 数 、 用 户 产生 的 内 容 创 
作 被 其 他 用 户 的 收藏 数 3 个 指标 共同 衡量 。 实 验 中 
借助 TOPSIS 法 对 用 户 在 社区 的 交互 行为 的 相关 数据 
进行 降 维 的 归 一 化 处 理 , 获 取 相 应 特征 值 ,在 尽 可 能 
减少 原 指标 包含 信息 的 损失 的 同时 使 得 数据 集 更 加 
易 用 数据 结果 更 易于 理解 ,便于 后 续 实验 数据 的 
处 理 。 
3.3.2 用户 活跃 度 

活跃 度 水 平 较 高 的 用 户 更 有 可 能 为 新 闻 题 给 出 自 


己 的 答案 。 用 户 在 知 乎 社区 的 活跃 度 受 众多 因素 的 影 
响 , 如 时 间 、 个 人 兴趣 、 社 区 声誉 及 金钱 等 因素 。 本 文 
基于 用 户 在 2018 年 一 整 年 产生 的 历史 回答 数量 、 提 问 
数量 ,发布 的 文章 数量 、 举 办 的 live 场次 数量 ,以 及 在 
社区 中 参与 公共 编辑 的 次 数 来 衡量 用 户 的 活跃 度 水 
平 。 其 中 ,用 户 在 知 乎 社区 参与 的 公共 编辑 是 指 用 户 
在 平台 添加 问题 为 问题 添加 话题 标签 、 移 除 问 题 ,为 
问题 移 除 话题 标签 .对 问题 进行 补充 说 明 等 编辑 行为 。 
用 户 活跃 度 特征 值 的 获取 采用 TOPSIS iX 
3.3.3 用 户 专业 性 

在 知 乎 社区 中 ,大 多 数 用 户 并 未 明确 指出 自己 的 
兴趣 主题 或 专业 所 在 领域 ,对 主题 分 布 的 描述 有 利于 
明确 用 户 的 主题 兴趣 , 当 用 户主 题 与 问题 主题 的 相似 
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度 较 高 时 ,用 户 更 可 能 出 于 一 种 需求 满足 的 内 部 动机 
进行 答题 。 因 此 ,为 寻找 专业 的 答题 者 使 提问 者 得 到 
满意 回复 ,在 面 对 一 个 新 问题 时 ,需要 将 新 间 题 的 话题 
关键 词 与 用 户 的 兴趣 关键 词 进行 匹配 计算 ,主要 包括 : 
QD 用 户 个 人 简介 信息 与 新 问题 之 间 的 相似 性 。@ 用 户 
主题 与 新 问题 的 主题 相似 性 。 即 将 两 者 的 信息 点 进行 
向 量化 ,并 计算 其 余弦 距离 。 研 究 借助 自然 语言 处 理 
技术 将 用 户 回 答 的 内 容 文本 进行 特征 向 量化 ,利用 
LDA ( Latent Dirichlet Allocation ) 主题 模型 来 抽取 文本 
信息 的 关键 话题 特征 。 同 时 将 新 问题 利用 LDA 主题 
模型 转化 为 等 维度 的 问题 向 量 。 其 中 ,新 问题 与 用 户 
的 话题 匹配 的 余弦 相似 度 为 : 


. H,Y ; 
Sim( H,V) “TA -VT 公式 (1) 


其 中 ,H 和 VV 是 两 个 n 维 向 量 ,H 是 [ H,LH,LH,, 
Hu) V 是 [VV ,VW ,Vs,…,V] ,余弦 值 越 接近 1, 表 明 
两 个 向 量 且 和 VV 越 相 似 。 

(1)tf-idf。 处 理 文本 信息 时 ,需要 对 文本 进行 中 文 
分 词 。 本 文 将 每 位 用 户 的 个 人 简介 或 回答 视 作 一 个 文 
档 ,所 有 用 户 文件 为 语料库 ,由 此 计算 每 个 文档 在 语 料 
库 中 的 tf-idf。 在 处 理 过 程 中 ,利用 Jieba 对 所 有 文本 信 
息 进 行 分 词 处 理 ,同时 要 过 滤 无 效 的 非常 用 词 .标点 、 
特殊 符号 等 ,接着 计算 每 个 中 文 词组 的 tf-idf, 整体 处 
理 流程 如 图 5 所 示 : 


- 斯 概率 模型 ,包含 词语 .主题 和 文档 3 层 
缚 琶 , 其 中 ,文档 到 主题 ,主题 到 词语 均 服从 多 项 式 分 
Ai SLDA 能 够 抽取 到 大 规模 文档 或 语料库 中 潜在 的 主 
题 伍 息 。 它 采用 词 袋 方法 ,将 一 篇 文档 看 作 是 词 频 向 
量 的 构成 ,使 复杂 问题 简单 化 。 
3®h 用 户 权威 性 
三 本 文 从 用 户 在 社交 网 络 中 的 重要 性 和 用 户 产 生 的 
发 这 质量 衡量 知 乎 社区 中 用 户 的 权威 性 。 用 户 的 权威 
性 感 高 ,吸引 的 粉丝 就 越 多 ,其 产生 的 答案 被 浏览 、 
转 爱 , 获 赞 、 被 收藏 的 几率 就 越 大 ,其 在 社区 发 言 所 获 
得 的 影响 力也 越 大 ,用 户 为 提升 影响 力也 更 愿意 答题 ， 
由 此 形成 一 个 良性 循环 。 

(1) 用 户 发 言 影响 力 。 研 究 依据 用 户 回 答对 其 他 
用 户 所 产生 的 影响 ,包括 获 潮 .转发 .收藏 来 衡量 用 户 
在 社区 的 发 言 影响 力 。 知 乎 社区 中 高 赞 答案 会 优先 显 


" | 去 除 无 用 符号 、 对 文本 进行 结巴 pr 将 文本 转 为 
原始 数据 | ” 保留 文字 | 分 词 * EPERIIS T iidf 向 量 
图 5 ”中文 文本 预 处 理 流程 


“圈子 ”规模 越 大 ,用 户 的 重要 性 越 高 , 即 权威 度 越 高 。 


图 6 用 户 知 乎 社交 网 有 向 图 


对 于 任意 用 户 A ,其 PeopleRank 值 为 : 


PR(A) = (1-d) «a CO.) SIT C(p;) 
公式 (2) 


其 中 ,p; 代表 用 户 ,C(P) 代 表 某 个 用 户 关 注 其 他 


示 ,无 形 之 中 提升 用 户 影 响 力 , 但 知 乎 社区 中 单条 答案 
的 转发 和 收藏 数量 不 予 显示 CUT 2E AE T AS AE ITI ACTAE 
数 来 统计 用 户 答案 的 获 赞 总 数 与 用 户 产 生 的 答案 数量 
LEs 

(2) PeopleRank 算法 。PeopleRank 的 计算 原理 跟 
PageRank 相似 ,该 算法 将 用 户 在 社会 化 问答 社区 所 形 
成 的 社交 网 络 结构 视 作 一 个 有 向 图 ,该 图 以 社区 的 参 
与 者 一 一 用 户 作为 节点 ,用 户 之 间 的 关注 关系 作为 边 
(如 图 6 中 ,用 户 A、B、CD 均 为 图 的 节点 , 若 用 户 A 关 
注 用 户 B , 则 存在 一 条 有 向 边 AB) ,用户 A 的 粉丝 越 
多 ,指向 节点 A 的 边 越 多 ,表明 用 户 A 在 社交 网 络 中 的 


有 户 所 形成 的 边 的 数量 。d 是 阻尼 系数 ,代表 用 户 间 
的 关注 关系 可 能 改变 用 户 权威 度 等 级 的 概率 。 运 算 
时 ,为 每 个 用 户 赋予 一 个 初始 的 PR 值 ,通过 算法 不 断 
迭代 ,直至 PR 值 收敛 稳定 。 
3.3.5 其 他 特征 指标 

研究 中 将 无 需 计 算 可 直接 作为 特征 值 的 指标 归于 
此 类 ,主要 包括 用 户 是 否 为 机 构 用 户 ( 机 构 用 户 会 出 于 
声誉 及 地 位 利益 进行 答题 ) 用户 举办 或 赞助 的 知 乎 
live 场次 及 价格 ( 用户 出 于 提升 自我 的 目的 赞助 知 乎 
live 进行 学 习 , 出 于 知识 变现 的 目的 举办 较 高 价格 的 
知 乎 live, 出 于 利他 主义 动机 多 次 举办 免费 或 超 低 价 知 
F live) ,用 户 答题 数 (广泛 答题 是 用 户 利他 主义 动机 


Tm 


81 


AELE xt 


$864 35 58 18 # 2020 年 9 月 


ChinaXiv 合 作 期 刊 


的 又 一 体现 ) 主要 采用 一 般 的 数学 统计 方法 。 
4 ”社会 化 问答 社区 答题 者 发 现 过 程 及 算法 


4.1 社会 化 问答 社区 答题 者 发 现 过 程 

本 研究 借助 Python 语言 编写 脚本 从 知 乎 网 站 采集 
数据 ,并 对 实验 数据 进行 清洗 和 预 处 理 , 在 此 基础 上 ， 
对 实验 数据 进行 特征 提取 ,主要 包括 :中 资料 完整 度 ; 
G@ 用 户 活 跃 度 ;@ 用 户 在 社区 的 交互 行为 ;由 用 户 历史 
创作 特征 ;@ 用 户 在 社交 网 络 中 的 重要 度 ;@ 问 题 话题 
与 用 户 话题 相似 性 。 其 中 ,问题 话题 与 用 户 话题 相似 


性 由 tf-idf 及 LDA 主题 模型 提取 社区 用 户 的 主题 词 及 
高 频 问 题 话 题词 向 量 之 间 的 相似 度 求 得 。 根 据 用 户 是 
否 回答 过 该 类 主题 的 问题 打上 0 或 1 标签 (其 中 0 代 
表 用 户 未 回答 过 该 话题 的 问题 ,1 则 代表 回答 过 ) 。 最 
后 ,将 特征 指标 及 标签 值 借助 用 户 ID 进行 关联 ,将 实 
验 数据 的 60% 作为 训练 数据 ,40% 作为 测试 数据 , 实 
验 利用 3 种 不 同 的 机 器 学 习 模 型 (逻辑 回归 、 随 机 和 森 
林 、XGBoost) 来 构建 准确 率 最 优 的 二 分 类 模型 ,并 利用 
该 模型 计算 不 同 用 户 对 未 回答 的 相关 话题 问题 的 答复 
概率 ,由 此 寻找 合适 的 回答 者 ,整体 过 程 如 图 7 所 示 : 


目标 答题 者 列表 


= 
O 图 7 知 乎 社区 潜在 答题 者 发 现 过 程 
4.2 社会 化 问答 社区 答题 者 发 现 算法 的 数据 信息 主要 包括 :中 话题 下 用 户 的 身份 信息 ,包括 


技术 模型 是 对 文章 理论 指标 的 落地 处 理 , 基 于 前 
文 的 数据 处 理 结果 及 相应 特征 值 的 提取 工作 ,并 分 别 
选用 逻辑 回归 随机 和 森林、XGBoost3 种 模型 对 数据 进行 
训练 ,对 比 得 到 最 优 的 二 分 类 模型 作为 预测 模型 。 本 
节 对 社会 化 问答 社区 答题 者 发 现 模型 的 伪 代 码 的 描述 
见 表 1。 


5 实验 构建 及 数据 对 比分 析 


5.1 数据 集 及 预 处 理 
5.1.1 实验 数据 集 

本 研究 的 实验 数据 来 源 于 知 乎 社区 ,从 医学 话题 
领域 和 人手, 借助 Python 爬虫 疏 取 用 户 及 其 相应 数据 ,时 
[RES RE y 2018 4E 1. H 1 H 2019 4E 4 H 30 日 , 抓 取 


用 户 ID 所 在 行业 教育 经 历 . 个 人 简介 等 ;@ 知 乎 社 
区 对 用 户 的 认证 信息 ,包括 用 户 是 否 为 机 构 用 户 是否 
为 知 乎 认证 的 话题 优秀 回答 者 ;@) 话 题 下 用 户 历 史 问 
答 数 据 ,包括 用 户 提出 的 问题 ,用户 已 答 问题 .已 答 问 
题 标签 .用户 产 生 的 答案 的 数量 及 内 容 、 管 案 被 赞 数 、 
答案 被 感谢 数 ;由 话题 下 用 户 撰写 的 文章 ,包括 标题 、 
内 容 、 标 签 文章 的 赞同 数 ;@ 话 题 下 用 户 举办 和 赞助 
的 知 乎 live, 包 括 live 的 题目 标签 价格 . 星 级 ;@@ 话 题 
下 用 户 的 关注 者 及 用 户 粉丝 的 ID, 

数据 采集 结果 存放 入 Access 数据 库 中 ,以 用 户 在 知 
乎 注册 时 所 形成 的 映 份 YD. 完成 对 各 数据 表 的 关联 , 数 
据 集 含 318 名 用 户 的 个 人 信息 及 提问 844 条 ,问答 数据 
65 352 条 ,关注 数据 31 243 条 ,粉丝 数据 276 379 条 。 
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R1 社会 化 问答 社区 答题 者 发 现 算法 
Input; 
用 户 数 i=1,2,…,n(n=306) 


问题 数 q 


Output: 每 个 用 户 对 不 同 话题 的 输出 概率 
话题 为 s, 有 种 ,分 别 记 为 “医疗 游戏 “科技 “电影 ”“ 
“就 业 "“ 教 育 ”“ 亲 密 关 系 ”“ 收 入 ” 
Forizl:q: 
对 于 每 个 问题 ,选择 最 恰当 的 话题 标签 


Return 1 “问题 ”:“ 话题 ” | 


用 户 计算 其 背景 资料 完整 度 
户 计算 其 ; 

户 在 社区 交 
用 户 是 否 未 认证 用 户 及 live 特征 
用 户 在 社区 社交 网 络 中 PR 值 
户 创 作 内 容 特征 值 


I 


用 户 回 答 不 同 的 话题 ,计算 其 相似 度 
户 针对 的 具体 话题 ,是 否 有 过 相应 的 历史 回答 ,进行 标签 化 


fetum 用 户 话题 行为 特征 及 相关 标 等 数据 


用 不 同 的 机 器 学 习 训练 
,XGboost ) : 


uredata , label ) 


C Model = FindBestModel 找到 准确 率 最 佳 的 模型 


CN 


SBA: 
EE Sore 为 用 户 特征 数据 与 特定 问题 的 推荐 概率 


sf summam 


三 对 原始 数据 进行 预 处 理 时 ,考虑 到 匿名 用 户 的 数 
据 信息 在 多 数 表格 中 出 现 缺 省 值 (如 背景 资料 的 相关 
数据 提问 数据 等 ) , 故 研究 剔除 12 位 匿名 用 户 及 其 产 
生 单条 问答 信息 ,得 到 有 效用 户 306 位 ,与 之 对 应 的 历 
史 回 答 共 65 251 条 ,用 户 的 关注 数据 共计 31 243 条 ， 
粉丝 数据 共计 276 379 条 。 

本 次 实验 数据 的 预 处 理工 作 主 要 包含 两 个 方面 : 
QD 利用 SQL 语句 对 对 各 表 中 的 数据 进行 去 重 。@ 利 用 
Python 语言 清洗 用 户 创作 的 文本 内 容 , 包 括 去 除 html 
标签 .文本 内 容 的 分 词 及 去 停 用 词 。 借 助 Python 的 分 
词组 件 Jieba 以 及 哈尔滨 工业 大 学 停 用 词 表 ,并 结合 实 
验 数据 的 实际 情况 添加 了 部 分 停 用 词 特殊 符号 及 文 
字 表 情 序号 以 及 一 些 常见 的 网 络 用 语 。 
5.2. 数据 表征 提取 及 分 析 

对 实验 数据 表征 的 提取 和 分 析 不 仅 使 数据 更 接近 
其 背后 代表 的 本 质 含义 ,也 为 后 文 数据 标签 的 确定 及 
进一步 的 数据 分 析 和 方法 验证 黄 定 基础 。 


5.2.1 用 户 可 信 度 

(1) 背 景 资 料 完整 度 。 社 会 化 问答 社区 中 用 户 在 
注册 时 可 选择 实名 注册 ,也 可 选择 不 实名 注册 。 显 然 ， 
实名 注册 用 户 更 加 可 信 , 本 研究 中 用 户 资料 完整 度 的 
统计 采用 一 般 的 数学 方法 , 即 对 用 户 的 背景 资料 (包括 
用 户 性 别 . 居 住地、 所 在 行业 .职业 经历. 教育 经 历 、 个 
人 简介 )6 个 字段 不 为 空 项 的 统计 ,同时 标注 用 户 是 否 
为 认证 用 户 。 统 计 结 果 显 示 , 大 多 数 用 户 的 资料 完整 
度 在 40% 以 下 ,少数 用 户 资料 完整 度 在 6096 以 上 。 在 
知 乎 社区 进行 实名 认证 的 用 户 仅 有 8 人 , 占 比 2.6% 。 

(2) 与 其 他 用 户 的 交互 行为 。 用 户 与 其 他 用 户 交 
互 行为 特征 值 由 TOPSIS 法 依据 用 户 在 知 乎 社区 的 获 
"PC .被 收藏 数 、 被 感谢 数 求 得 ( 见 表 2) 。 首 先 确定 该 
次 评价 指标 均 为 极 大 型 指标 ,接着 对 评价 指标 数据 进 
行 归 一 化 处 理 , 进 而 找 出 3 个 衡量 指标 的 最 优 和 最 劣 
值 , 即 Z* 和 2Z ,最 终 计算 出 各 评价 对 象 (用 户 ) 与 最 优 
或 最 劣 值 间 的 距离 D AD, WIE D*A D ,得 出 各 
评价 对 象 与 最 优 值 的 接近 程度 (C 值 ) 来 表示 用 户 的 活 


跃 度 水 平 。 
表 2 用 户 交 互 行为 原始 数据 (部 分 ) 
项 XP 被 收藏 数 被 感谢 数 
评价 对 象 1 45 306 40 
评价 对 象 2 31 125 180 
评价 对 象 3 58 394 38 
评价 对 象 305 146 1 446 75 
评价 对 象 306 5 21 2 


以 评价 对 象 1 为 例 ,依据 TOPSIS 法 对 研究 中 的 相 
关 数 据 ( 见 表 2) 进行 归 一 化 处 理 得 到 : 


Bas - 2 =0. 000 37 
J| 45^ «31^ 4 58 +- +146 +5° 
Br = 2d z«0. 000 26 
4/306? 4-125? +394 + --- +1 466^ «21? 
Bi = i 70.000 17 


30^ +180 «38 +- +75° «27 

由 此 计算 出 所 有 的 B 值 ,进而 得 出 3 个 衡量 指标 
的 最 优 和 最 劣 值 , 即 2 和 2 ， 

Z' -max|fl, „Bai >*t ,Bao0 | , max [B2 „Ba ,Bao l > 
max | Bis ,By Bs] ) = (0.957 8,0. 983 5,0. 725 8) 

Z = min {BuBa Puls min {Bi ,By ,Bae l > 
min |f, ,Ba B33) ) = (0,0,0) 

进而 得 出 : 


3 
D = A/ XA -Bs) = 1. 552 389, D, = 
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3 j D, » 
(Z, -Bs) ~ 0. 000 487, C, = D 4D = 
0. 000 31 
因此 ,评价 对 象 1 的 交互 行为 特征 值 为 0.000 3, 
类 似 地 , 求 出 所 有 评价 对 象 的 活跃 度 特征 值 ,实验 结 
见 表 3( 此 处 仅 展 示 10 名 评价 对 象 相 关 数 据 ) 。 
表 3 TOPSIS 评价 用 户 行为 计算 结果 


项 D+ D- C 
评价 对 象 1 1.552 388 985 0. 000 486 841 0. 000 313 509 
评价 对 象 2 1.552 275 781 0. 000 826 734 0. 000 532 312 
评价 对 象 3 1.552 278 958 0. 000 608 915 0. 000 392 118 
评价 对 象 4 — 11.552 863 329 3.439 86E-06 2.215 17E-06 
评价 对 1.552 865 508 0 0 
F 价 对 1.516 068 496 0.037 389 797 0.024 068 748 
1.552 846 975 2.528 11E-05 1.628 02E-05 
1.552 837 438 2.848 44E-05 1. 834 31E-05 
1.552 864 419 1.719 93E-06 1.107 58E-06 
1.552 755 714 0. 000 118 034 7.600 98E-05 


SG 用户 活跃 度 

< 二 活跃 度 水 平 高 的 用 户 具 有 时 间 上 的 答题 动机 ,更 
可 酮 在 知 乎 社区 分 享 自己 的 见解 和 经 验 。 用 户 在 社区 
迭 交 光度 主要 通过 用 户 产生 的 回答 数 , 提 问 数 .文章 
数 :举办 的 live 场次 以 及 参与 公共 编辑 次 数 5 个 指标 
衔 凯 。 同 样 地 ,该 次 评价 指标 均 为 极 大 型 指标 ,依据 
TOPSIS 方法 , 求 得 用 户 的 活跃 度 水 平 (C 值 ) 见 表 4( 仅 
RR 10 名 用 户 ) : 

表 4 TOPSIS 评价 用 户 活跃 度 计算 结果 


D+ D- C 


1. 500 005 496 0. 034 339 233 0. 022 380 390 


1.504 152 748 0.026 162 029 0. 017 095 848 


1.500 101 431 0.044 342 443 0.028 710 945 


1.486 501 490 0.041 618 921 0.027 235 368 


1.443 895 068 0. 107 015 983 0. 069 002 012 


1.420 039 124 0. 185 684 301 0. 115 639 031 


1.472 803 374 0. 086 876 242 0. 055 701 338 


象 8 1.514 231 261 0. 002 090 914 0. 001 378 938 


象 9 — 1.419561 581 
评价 对 象 10 


0. 195 188 857 0.120 878 652 


1.513 819 702 0. 002 289 890 0. 001 510 372 


5.2.3 用 户 专业 性 

知 乎 社区 中 用 户 的 专业 性 主要 由 用 户 发 布 的 内 容 
(包括 内 容 主 题 和 内 容 质量 ) 来 衡量 。 

(1) 用 户 的 兴趣 话题 及 其 与 问题 话题 的 相似 性 。 
研究 借助 LDA 主题 模型 从 每 个 用 户 发 布 的 历史 答案 
中 提取 10 个 主题 ,每 个 主题 含 8 个 主题 词 。 同 时 按照 
话题 热度 统计 用 户 在 知 乎 社区 提出 的 问题 的 话题 标签 


(用 户 在 知 乎 社区 提出 问题 会 有 相应 的 话题 标签 ) ,经 
统计 ,将 实验 数据 中 问题 的 话题 按照 热度 大 致 分 为 10 
个 话题 , 即 " 医疗“ 游戏 “科技 “电影 UR UE 
活 ”“ 就 业 "“ 教 育 "“ 亲 密 关系 ”“ 收 入 ”。 实 验 中 ,将 
LDA 主题 模型 获取 的 用 户 话题 主题 词 与 问题 主题 词 构 
建 主题 词典 ,将 问题 话题 词 与 用 户 话题 词 在 词 袋 模型 
中 进行 向 量 表示 ,计算 向 量 之 间 的 相似 性 ,作为 问题 话 
题 与 用 户主 题 之 间 的 相关 性 特征 值 。 此 外 ,针对 用 户 
是 否 回答 过 相关 话题 将 数据 标签 化 。 如 茶 一 用 户 的 主 
题词 ( 见 表 5) 为 分子“ 情感 “生活 “化 学 “物理 ” 
“科技 “教育 “科研 ” ,那么 用 户 在 问题 主题 词语 中 ， 
与 话题 “医疗 “游戏 “电影 “食品 “就 业 ”“ 收 入 ”所 
对 应 的 标签 是 "0”, 与 “科技 “生活 “教育 “亲密 关 
系 " 话 题 所 对 应 的 标签 是 "1” ,由 此 构建 一 张 带 标签 的 


X5 某 用 户主 题词 


主题 主题 词 
Topic 0 作用 力 分 子 作用 原子 计算 物体 皮肤 纳米 
Topic 1 伍佰 婚礼 一 种 单独 孤独 爱情 记录 生命 
Topic 2 感到 父母 喜欢 手机 经 历 彩礼 感觉 事情 
Topic 3 结构 泡沫 相关 化 学 实验 过 程 知识 研究 
Topic 4 温度 ZAR 过 程 速度 空气 水 蒸气 沸腾 现象 
Topic 5 表面 表面 张力 液体 界面 作用 液 滴 固体 重力 
Topic 6 科学 技术 人 类 世纪 发 明 世界 欧洲 发 现 
Topic 7 老师 学 生 学 习 学 校 大 学 研究 生 科研 导师 
Topic 8 论文 科研 国内 工作 自由 一 种 学 术 期 刊 
Topic 9 物质 分 子 压强 密度 体积 质量 增 大 高 度 
(2) 内 容 质 量 。 对 内 容 质 量 的 描述 包括 内 容 是 否 


详实 清晰 .专业 。 涉 及 到 的 指标 有 答案 中 图 片 及 超级 
链接 的 数量 .回答 获 攀 数 .获得 的 感谢 数 及 答案 长 度 。 

本 研究 通过 html 标签 ( 主要 是 < img > 及 < a href 
> ) 来 统计 用 户 回答 时 所 引用 的 图 片 及 超级 链接 数量 ， 
用 户 平均 每 条 答案 中 对 图 片 及 超级 链接 的 引用 不 足 
0.3。 用 户 回 答 获 赞 数 及 获 感谢 数 在 数据 抓 取 时 已 有 ， 
无 需 另 行 统计 。 统 计 结 果 显 示 , 绝 大 部 分 用 户 年 内 产 
生 答案 总 数 约 为 100 条 , 少 部 分 用 户 产 生 答 案 约 300 
条 , 极 少数 用 户 产生 答案 非常 之 多 ,在 3 000 条 以 上 ， 
答案 文本 平均 长 度 约 70 词 , 少 部 分 用 户 回 答 较为 详 
细 , 文 本 长 度 大 于 100 词 。 
5.2.4 用 户 权威 性 

统计 用 户 发 布 的 答案 总 数 及 答案 获 赞 总 数 后 , 定 
义 答 赞 比 为 y, 统 计 结果 显示 ,大 部 分 用 户 年 内 答案 平 
均 获 赞 数 在 10 以 下 , 占 比 约 83% ,14. 0596 的 用 户 年 内 
答案 平均 获 赞 数 在 100 以 上 ,500 以 内 ,1% 的 用 户 可 高 
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达 1 000 以 上 ,显然 产生 高 赞 答案 的 用 户 处 于 少数 ,如 
图 8 所 示 : 


YE(1000,2000]:0.65% 
26 (800,1000}033% 
YE 人 | 


,500]:2. 2965 
yE[10,100]:14.05% 


YE[O,1]:48.04% 


yE(1,10]:34.64% — 


图 8 答 赞 比 区 间 分 布 及 用 户 占 比 


实验 中 ,依据 31 243 条 关注 数据 和 276 379 RH 
丝 数据 ,采用 PeopleRank 算法 将 用 户 作为 图 中 的 节点 ， 
PLC UNER A E, 由 边 的 权重 和 边 的 数 
ERSTE RET HP B PR 值 , 可 视 化 结果 见 图 9。 由 于 数 
过 多 , 仅 选取 部 分 数据 进行 展示 , 某 一 节点 的 用 户 


9 部 分 用 户 关 系 网 可 视 化 


—— Precision-Recall curve:AUC-0.83 


Precision 


Recall 


5.2.5 其 他 特征 值 

实验 数据 中 机 构 认 证 用 户 占 比 0.6% ,出 于 外 部 
的 利益 动机 ,如 声誉 地位、 产品 推广 的 目的 ,在 答案 的 
质量 和 数量 上 都 非常 可 观 。 在 知 乎 live 方面 ,出 于 金 
钱 利益 ,用 户 会 设置 较 高 的 人 场 费 ,而 那些 乐于 共享 知 
识 的 用 户 ,出 于 利他 主义 动机 ,会 经 常 举办 知 乎 live, 且 
大 多 免费 或 是 价格 极 低 (10 元 以 下 ) ,live 时 长 也 较 长 
(大 于 2 小 时 ) 。 少 部 分 用 户 举办 的 知 乎 live 均 价 达到 
25 元 以 上 ,在 分 享 知识 的 过 程 中 实现 了 知识 变现 。 多 
数 用 户 ( 约 73.4% ) 出 于 提升 自身 知识 水 平 的 目的 会 
赞助 live ,个 别 用 户 场 次 较 多 , 旦 费用 达 千 元 或 以 上 。 

至 此 ,本 研究 的 数据 处 理 及 数据 表征 的 提取 、 分 析 
工作 全 部 完成 。 
5.3 实验 结果 及 对 比分 析 

实验 首先 将 样本 数据 集 分 成 60% 的 训练 数据 与 
40% 的 测试 数据 ,主要 设计 了 利用 3 种 不 同 的 机 器 学 
习 模 型 ,来 构建 对 用 户 回 答 相 关 话 题 问 题 的 二 分 类 预 
测 模 型 对 实验 数据 集 进行 训练 ,并 在 测试 集中 进行 评 
估 与 对 比 。 在 测试 集中 的 实验 效果 如 表 6 所 示 : 

表 6 3 种 机 器 学 习 模 型 的 实验 结果 对 比 


模型 名 称 ” ”准确 率 精确 率 召回 率 fl roc_auc 
3E pE] 0. 598 0.570 0. 791 0. 661 0. 666 
随机 森林 0.702 0. 686 0.752 0.715 0.744 
XGBoost 0. 864 0.778 0.852 0. 797 0. 824 


该 二 分 类 样本 经 过 3 种 机 器 学 习 模型 训练 ,得 到 的 
实验 结果 的 最 佳 准 确 率 为 86. 4% ,最 佳 的 全 值 为 
79.196 。 经 过 对 比分 析 可 知 ,利用 XGBoost 模型 得 到 的 预 
测 效果 最 佳 ,其 PR 曲线 及 ROC 曲线 图 如 图 10 所 示 : 


o 
X 


True Positive Rate 


0.0 02 04 0.6 0.8 1.0 
False Positive Rate 


图 10 XGBoost 模型 的 PR 曲线 .ROC 曲线 


由 此 ,基于 已 训练 好 的 模型 ,可 预测 用 户 与 话题 之 
间 的 推荐 概率 ,用 公式 表示 为 : 
Score = AL * (a feature, + o,feature, + oafeatures + 


公式 (3) 


“+ a, feature, ) 


其 中 ,4L 代表 用 户 活路 度 feature 为 模型 中 的 特征 


m 


本 研究 利用 多 种 模型 ,并 选择 不 同 的 模型 超 参数 
进行 网 格 搜索 , 旨 在 计算 出 最 佳 的 参数 ,利用 训练 好 的 
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一 组 参数 a ,a,,… ,a ,可 以 预测 用 户 与 问题 之 间 的 回 
答 概率 ,具体 结果 如 表 7 Bron : 
表 7 部 分 用 户 回答 问题 的 概率 得 分 


feature feature; features feature, features featureg score 
0.35 0.24 0.02 0.29 0.24 0.73 0.83 
0.84 0.23 0.01 0.29 0.23 0. 69 0.12 
1.00 0.24 0.05 0.29 0.24 1.00 0.92 
0.66 0.17 0.21 0.22 0.17 0.34 0.16 


0.88 0.29 0.08 0.35 0.29 0. 77 0.27 


通过 模型 ,可 以 计算 用 户 回答 相关 话题 问题 的 概 
率 得 分 。 实 验 中 ,对 上 述 结果 的 特征 均 进 行 标准 化 处 
理 ,测试 的 真实 效果 准确 率 大 约 为 79% 。 此 外 ,为 测 
试 研究 模型 的 优越 性 ,本 文 将 研究 模型 与 PageRank 算 
V BITS 算法 进行 对 比 ,结果 如 表 8 所 示 : 

表 8 本 模型 与 PageRank 算法 ,HITS 算法 比较 


算法 准确 率 ( % ) roc_auc 

a) PageRank 76.3 0. 738 
HITS 69.1 0. 621 

本 模型 86.4 0. 824 


Ha 7 可 见 ,利用 本 模型 提取 的 指标 结合 众多 的 


棒 跟 学 习 方 法 ,生成 的 预测 效果 要 咯 优 于 其 他 两 种 传 


统 鲍 异型。 在 考虑 推荐 的 相关 特征 信息 时 ，PageRank 


区 倚 行 为 信息 及 用 户主 题 相 对 于 问题 的 偏好 ,从 而 导 


嵌 户 的 活跃 性 .用户 在 社交 网 络 中 的 专业 性 等 诸多 


影 而 指标 ,还 根据 用 户 在 社交 网 络 的 重要 程度 ,来 综合 
评 移 其 推荐 某 个 特定 话题 的 子 问题 的 概率 。 研 究 模型 
的 预测 效果 也 比较 理想 ,能 够 对 现实 话题 推荐 起 到 一 


定 的 指导 意义 。 
6 ”总结 与 展望 


本 研究 以 热门 的 社会 化 问答 社区 知 乎 社区 为 研究 
对 象 , 从 医学 这 一 普通 用 户 及 具备 专业 知识 答题 用 户 
都 能 参与 的 话题 入手 ,进行 时 间 跨 度 2018 年 一 整 年 的 
实验 数据 的 采集 清洗 ` 预 处 理 及 特征 分 析 。 本 研究 基 
于 社会 资本 理论 及 动机 理论 ,构建 相应 的 特征 指标 和 
研究 模型 ,借助 Python 语言 及 相关 算法 将 数据 转换 为 
模型 所 需 的 特征 值 ,同时 ,依据 用 户 是 否 进行 过 相应 主 
题 问题 的 回答 给 出 0 或 1 标签。 实验 时 ,选取 实验 数 
据 的 60% 为 训练 数据 ,40% 为 测试 数据 ,运用 逻辑 回 
归 模 型 .随机 森林 、XGBoost3 种 常用 的 机 器 学 习 分 类 模 


Hu 


型 进行 研究 模型 中 数据 的 训练 及 预测 ,研究 结果 显示 ， 
该 实验 中 XGBoost 模型 的 准确 率 最 高 ,能 达到 86% 左 
右 ,拥有 较 好 的 实验 效果 。 但 研究 也 存在 一 些 不 足 之 
处 ,如 研究 剔除 了 匿名 用 户 的 相关 数据 ,但 的 确 存 在 一 
些 匿 名 用 户 ,产生 了 切 题 度 较 高 的 答案 , 且 论 述 也 十 分 
的 详尽 。 此 外 ,在 用 户 答题 动机 的 研究 中 ,对 用 户主 观 
的 答题 动机 的 测量 较为 客观 ,这 些 不 足 之 处 需要 在 未 
来 的 研究 中 给 予 完善 ,也 为 后 续 的 研究 指出 新 的 思路 
和 方向 。 
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Social Question Answering Community Respondent Discovery Research 
Pan Mengya Shen Wang Dai Wang Liu JiaYu 
Management School of Jilin University , Changchun 130022 
Abstract; | Purpose/significance | Identifing the professional answerers with high probality in the social Q&A 
community can shorten the waiting time for users who ask questions to get satisfactory answers, promote knowledge 
sharing among users, and contribute to the sustainable and healthy development of the social Q&A community. 
| Method/process | Based on the social capital theory and motivation theory, this paper analyzed the motivation of 
users’ answering questions, combined the expert discovery research to propose measurement indicators, and built a 
research model, then took Zhihu as a research example, and used Python to extract the eigenvalues and label of ex- 
perimental data. Three common machine learning classification models , logistic regression model, random forest mod- 
el and XGBoost model were used for training and prediction. | Result/conclusion | Compared with PageRank and 
E algorithms , the effectiveness and superiority of the method proposed by this paper have been verified. And this 
paper has provided a certain reference for the topic research of similar platforms such as healthy community problem 
sh, expert identification and recommendation models. 
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